青岛华大团队研发HAST单倍型组装技术,助力构建“PERFECT GENOME”
导读
2020年6月1日,青岛华大基因研究院的软件开发团队开发了一种新技术,通过简便的方法即可高效地从多倍体物种中组装出各个单倍型。基于trio binning的三代测序数据的单倍型组装策略已经在最近多个重磅级研究中大放异彩,与常规混合组装相比,可以揭示更为准确的生物学机制,但也同时继承了三代测序的高错误率和昂贵成本等缺点。通过对人基因组的分析,该团队同样利用亲本遗传特异点,但将其应用于高性价比的stLFR数据,成功组装出两个完整的单倍型。这两个分别遗传自父、母本的单倍型组装,揭示了亲本特有的结构变异,为生物医学的广泛应用提供了可靠的基础保障,相关结果预发布在bioRxiv上。
论文链接:https://www.biorxiv.org/content/10.1101/2020.06.01.126995v1(亦可点击文末“阅读原文”)
01
完整且准确的基因组分型对于刻画人类疾病与基因型(特别是杂合变异)的关联十分重要。然而,当前大多数基因结构变异是缺乏分型信息的,而将这些变异按单倍型来源分类依然面临极大挑战。HAST提供了一种基于trio binning的单倍型组装方案,即利用亲本遗传特异点,将stLFR测序数据按照亲本来源分类,进而分别组装出两个完整的单倍体。
对于亚洲男性样品,HAST可以组装出scaffold超过11Mb的单倍型,组装准确率高达99.99995%。这种完整的长程分型信息可以产生长达N50~13Mb的phase block,平均分型准确率高达99.3%,召回率94.1%。总的来说,HAST的分型效率可媲美基于三代数据的TrioCanu组装,在组装准确率等方面甚至完成超越。这种准确高效的分型方案有利于确定同源染色体和异源染色体的构成、杂种优势的来源等,从而促进动植物育种和遗传疾病的研究。
图1. HAST的技术原理
02
01
可分型的stLFR的数据特征
受限于读长,传统的NGS短reads分型率不到1.4%。而stLFR提供的barcode信息可以有效地将短reads聚类成一个个单分子长片段。图2(a)显示了随着其长度的增长,可分型的长片段比例越来越高,从8%(含10对reads及以下)增长到100%(含200对reads及以上)。因此当我们过滤掉小于20对reads的长片段时,可以分别有31.0%和32.7% barcodes 分型到父本或母本,对应于42.0%和44.1%的数据量。虽然相对于10X Genomics的数据,stLFR的长片段碰撞率(1个barcode对应于多个长片段)大大降低,但具有两种亲本特异点的长片段的撞车率约为2.12。与之对比,可精确分型的父本、母本和纯合长片段的撞车率分别为1.58、1.54和1.19。这些共享的barcode可以通过投票选择的方式重新利用,且碰撞造成的分型误差则可以通过组装过程进行消除。
图2. stLFR的分型特征
HAST与Supernova、 TrioCanu相比展现分型优势
02
HAST可以产生两个高质量的单倍型组装。虽然Supernova也可以基于组装图结构产生两个“赝”分型,但杂合位点引起的图复杂化导致其contig长度小于HAST分型后的单倍型组装。得益于长程亲本信息的利用,HAST在分型的准确率和召回率上远远超过Supernova,从而促成了在BUSCO的完整性上的极大优势。TrioCanu对于PacBio三代测序数据的分型效率和准确率基本与HAST持平,但是在单碱基准确率上远不如基于stLFR的HAST,从而会影响下游的生信分析,例如单核苷酸多态性(SNP)的检测。
表1. HAST, Supernova和TrioCanu组装及分型的统计比较
在图3中,基于子代和父、母本特有的k-mer库的比对,HAST进一步展现出在分型准确率和效率上对Supernova的,以及在组装准确率上对TrioCanu的巨大优势。
图3. HAST, Supernova和TrioCanu单倍型组装的对比
03
HAST产出更长Phase block
利用stLFR提供的长程基因组信息,HAST可以分别取得10和16Mb的Phase Block N50,超过了TrioCanu的三代单倍型组装的0.8和1.5Mb。而与Supernova相比,超低的switch error带来了10-15倍的超长Phase Block。
表2. HAST, Supernova和TrioCanu的phase block和switch errors
HAST精确捕捉杂合的结构变异
04
由于缺乏亲本基因组组装,我们采用了较为准确的PacBio CCS reads来验证单倍型的组装结果。分型后的CCS reads可以完美地匹配到各自对应的HAST组装上;与之相比,Supernova的“赝”分型都在不同程度上表现出大段的缺失或插入。考虑到Supernova两个组装在结构上的高度相似性,图4(a)展现的是HAST精确捕捉到的位于4号染色体的、父本特有的、长达460bp的缺失;而图4(b)对应的是HAST精确捕捉到的位于8号染色体的、母本特有的、长达315bp的插入。Supernova则无法检测这些杂合结构变异。
图4. HAST与Supernova相比,可以准确捕捉杂合结构变异
05
HAST有效降低运算资源消耗
HAST同时支持对PacBio、Oxford Nanopore等三代测序数据进行分型,并且为了减小运算成本,完成了对算法和数据结构的优化,实现了高度并行化。相对于2018年底发表的TrioCanu,HAST在运算时间、内存消耗和并行化等方面都展现了极大的优势。
表3. HAST和TrioCanu的资源消耗对比
03
应用价值总结和未来探索方向展望
得益于组装前对测序数据的直接分型,单倍型的组装图结构更加简洁明了,因而可以获取更高质量的组装结果。HAST的应用并不仅限于双倍体物种。与传统分型方法不同,对于杂合度越高的基因组,HAST反而分型效率越高,这有利于实现高杂合度、复杂多倍体植物的分型。HAST不仅可以直接利用亲本测序数据,也可以使用近缘物种的信息,对同源或异源染色体进行追根溯源,从而为优质动植物育种、遗传进化研究等提供技术支持。
HAST同时提供了单倍型的单分子长片段集合,因此可以与其他分型数据进行有机结合。例如,利用PacBio或Oxford Nanopore数据延长HAST组装的contig到Mb级别。完美基因组的构建,需要综合应用多种测序技术,充分考虑其生物信息的优缺点和测序成本。
平台
本研究采用华大智造DNBSEQ测序平台进行测序
华大智造是全球三家能量产临床级高通量基因测序仪的企业之一。专注核心技术创新,从单项技术到整机系统深度布局专利保护,截至 2020 年 4 月,申请专利(有效)730 余件,累计 PCT 专利 110 余件,共获得专利340 余件,实现核心专利全方位覆盖。拥有完全自主知识产权的 DNA 纳米球测序技术 DNBSEQTM、单管长片段建库技术 stLFR、全新碱基识别技术 CoolMPS,可极大提升测序读长与精准度。
扫描二维码
关注我们
中国加油!世界加油!